短单链RNA和DNA序列(适体)的逆设计是找到满足一组所需标准的序列的任务。相关标准可能是特定折叠基序的存在,与分子配体,传感属性等结合。适体设计的大多数实用方法都使用高通量实验(例如SELEX)和SELEX)和然后,仅通过对经验发现的候选人引入较小的修改来优化性能。具有所需特性但在化学成分上截然不同的序列将为搜索空间增加多样性,并促进发现有用的核酸适体。需要系统的多元化协议。在这里,我们建议使用一种无​​监督的机器学习模型,称为Potts模型,以发现具有可控序列多样性的新的有用序列。我们首先使用最大熵原理训练POTTS模型,这是一组由公共特征统一的经验鉴定的序列。为了生成具有可控多样性程度的新候选序列,我们利用了模型的光谱特征:能量带隙分离序列,与训练集相似,与训练集相似。通过控制采样的POTTS能量范围,我们生成的序列与训练集不同,但仍然可能具有编码功能。为了证明性能,我们将方法应用于设计不同的序列池,该序列具有30-MER RNA和DNA适体中指定的二级结构基序。
translated by 谷歌翻译